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摘 要 : [目的 /意义 ] 中 医 医 案 是 记录 诊疗 数据 的 重要 载体 ,基于 中 医 医 案 元 数据 进行 中 医 诊 疗 数据 采集 ,形成 数据 集 ， 
对 于 中 医 诊疗 知识 共享 、 挖 气 和 传承 具有 重要 意义 。[ 方法 /过 程 ] 选择 和 确定 中 医 医 案 元 数据 ,并 参考 关系 数据 


库 对 数据 集 进 行 概 念 与 逻辑 设计 ,提出 对 中 医 医 
证 研究 。[ 结果 / 


案 数 据 进 行 采集 、 组 织 和 存储 ,进而 形成 数据 集 的 方法 ,并 进行 实 
结论 ] 基于 较 完 善 的 中 医 医 案 元 数据 进行 网 络 和 实地 诊疗 数据 采集 ,形成 的 中 医 诊 疗 数 据 集 不 仅 


可 以 支持 多 维度 的 诊疗 信息 存储 、 分 享 与 检索 ,也 能 为 更 深入 的 诊疗 数据 挖掘 提供 数据 源 。 
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中 医 经 过 二 千年 的 发 展 和 沉淀 ,形成 了 一 套 自己 独 
存 的 思维 模式 ,但 其 传播 和 发 展 仍然 以 "言传 身 教 "为 
由 于 中 医 自身 “以 人 为 本 "“ 千 人 千 方 "等 特点 ， 
Ri 套 广 泛 使 用 的 诊疗 模式 ,使 得 中 医 诊疗 阶 
妥 妃 量 高 价值 数据 无 法 很 好 地 保存 与 分 析 , 限 制 了 中 
区 六 发 展 。 究 其 原因 ,主要 是 因为 信息 传播 不 畅 和 交 
流 辽 得, 而 特定 主题 数据 集 的 建立 与 高 质量 科学 数据 
的 泛 版 是 达到 数据 共享 .打破 信息 孤岛 的 重要 手段 1。 
因 嘎 ,提出 一 套 科 学 记录 中 医 诊疗 细节 的 元 数据 ,并 基 
手下 元 数据 建立 中 医 诊疗 数据 集 ,将 中 医 诊疗 过 程 中 
的 内 量 数据 记录 并 保存 下 来 ,进行 数据 分 析 与 隐 性 知 
识 挖掘 ,可 以 极 大 推动 中 医 诊疗 信息 的 开发 和 利用 。 

中 医 诊疗 所 涉及 知识 纷繁 复杂 ,为 了 保证 数据 集 
质量 ,应 选择 合 理 的 采集 领域 。 章 太 炎 先生 说 :中医 
之 成 绩 , 医 案 最 著 ”“ ,中 医 医 案 是 中 医 理 .法 方药 综 
合 运用 的 具体 反映 形式 , 它 不 仅 真实 记述 了 医疗 活动 ， 
同时 也 反映 了 医家 的 临床 经 验 及 诊疗 思维 中 ,最 重要 
的 是 详细 记录 了 患者 的 信息 ,没有 只 考虑 疾病 本 身 。 
因此 ,历代 医 案 .中 医 网 络 医 案 以 及 临床 记录 的 医 案 ， 
都 是 数据 集 进 行 数据 采集 的 数据 源 。 然 而 无 论 上 述 哪 
一 种 医 案 , 其 记录 一 般 都 是 以 叙述 性 的 非 结构 化 文本 
为 主 , 医 案 的 字段 划分 粒度 较 大 ,无 法 展现 中 医 医 案 细 


节 , 不 利于 中 医 诊疗 知识 控 据 。 因 此 ,对 非 结 构 化 文本 
进行 结构 化 处 理 就 显得 非常 必要 ,一 是 进行 粒度 细 化 ， 
合理 拟定 元 数据 ,将 医 案 文本 中 的 重要 信息 结构 化 ;二 

是 进行 术语 标准 化 处 理 ,即将 文本 中 医疗 术语 (如 药 
品 疾病 名 称 ) 映 射 至 权威 或 标准 化 的 形式 ” ,这样 不 
仅 可 以 减少 诊疗 过 程 记录 的 缺陷 率 与 错误 率 , 提 高 数 
据 质量 ,更 有 利于 专业 知识 的 共享 与 交流 "| 。 

综 上 ,本 文 提 出 基于 中 医 医 案 元 数据 ,构建 高 

中 医 诊疗 数据 集 , 以 期 实现 中 医 诊疗 数据 的 结构 化 存 
储 ,支持 深度 检索 和 数据 挖掘 。 


1 文献 综述 


从 上 世纪 90 年代 以 来 ,不 同 应 用 领域 中 有 不 同 的 
元 数据 标准 出 现 。 为 了 规范 信息 存储 ,方便 资源 的 共 
享 和 利用 ,国内 外 相关 领域 内 对 科学 数据 的 组 织 多 采 
用 元 数据 方式 ,但 元 数据 模型 较 多 ,即使 在 同一 领域 内 
也 没有 公认 的 元 数据 模型 可 以 满足 所 有 应 用 ”。 根据 
贾 李 鞭 等 ”对 国际 标准 化 组 织 (ISO) 发 布 的 元 数据 标 
准 研究 ,目前 尚未 有 一 套 体系 完整 ,使 用 广泛 的 中 医 领 
域 元 数据 ,需要 根据 具体 使 用 情况 对 已 有 元 数据 进行 
扩展 。 赵 阳 等 ”通过 对 中 医药 文献 元 数据 的 著录 对 象 
的 界定 和 中 医 文献 元 数据 的 必要 性 分 析 ,规划 元 数据 
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框架 结构 并 提出 元 数据 来 源 和 扩展 原则 ,为 中 医 领域 
元 数据 拟定 提供 了 思路 。 刘 宝 杰 等 在 参阅 了 大 量 病 
案 的 基础 上 ,设计 了 一 套 中 医 病案 数据 库 的 元 数据 方 
案 ,元 数据 方案 分 为 医 案 基本 信息 ,疾病 基本 信息 . 诊 
断 , 治 疗 方药、 错误 操作 .禁忌 .西医 相关 信息 .医嘱 9 
个 部 分 ,初步 达到 了 组 织 和 描述 中 医 病案 资源 的 目的 ， 
但 却 存 在 “全 而 不 精 ” 的 问题 ,过 于 笼统 的 字段 表述 以 
及 相关 标准 的 缺失 会 造成 收集 数据 的 错位 与 混乱 。 孙 
静 等 "以 本 体 论 为 基础 ,探讨 了 中 医 医 案 信息 的 信息 
获取 与 管理 方法 ,利用 本 体 来 组 织 数据 ,可 以 很 清晰 地 
揭示 数据 之 间 的 内 在 联系 ,很 大 程度 上 弥补 元 数据 对 
于 知识 组 织 存在 的 不 足 , 有 利于 构建 知识 共享 系统 ,但 
该 研究 对 于 中 医 医 案 的 挖掘 相对 较 浅 ,字段 划分 粒度 
较 夫 ,对 于 临床 医 案 应 用 有 限 。 

字数 据 集 是 具有 一 定 主题 可 以 被 标识 并 能 够 被 计 
入 册 处 理 的 数据 集合 , 是 一 种 基于 主题 进行 数据 资源 
嵌 案 与 组 织 的 新 型 数据 组 织 方式 和 数据 资源 的 “ 封 
中， 构建 专业 领域 内 的 数据 集 是 目前 被 广泛 
j 数 据 资源 进行 收集 、 整 合 与 检索 的 方法 。 目 


数据 集 、 乳 腺 数据 集 等 。 在 记录 临床 信息 方面 ,比较 著 
名 的 有 MIMIC 数据 集 "" , 它 用 来 记录 病人 的 临床 信 
息 , 包 含 人 口 统计 学 、 床 边 生 命 体征 测量 .护理 人 员 笔 
记 、 出 院 信息 以 及 相关 的 影像 学 报告 。MIMIC 支持 涵 
盖 流 行 病 学 ,临床 决策 规则 改进 和 电子 工具 开发 的 各 
种 分 析 研 究 。 此 数据 集体 量 庞大 ,几乎 包含 一 位 患者 
可 以 涉及 的 所 有 静态 数据 ,虽然 其 对 诊疗 构成 的 记录 
方式 更 适用 于 西医 ,但 其 整体 结构 对 于 此 次 中 医 数 据 
集 构建 依然 有 很 大 借鉴 意义 。 

为 了 推进 中 医 领域 资源 共享 ,我国 已 建成 多 个 用 
于 中 医 数 据 管理 与 研究 的 知识 库 。 如 中 国 知 网 中 医药 
知识 资源 总 库 ,疾病 诊疗 知识 库 、 万 方 医学 网 临床 诊疗 
知识 库 等 ,其 中 收录 了 丰富 的 疾病 检查 药品 、 循 证 、 
病例 文献 等 资源 ,为 临床 决策 提供 了 丰富 可 靠 的 文 
持 。 一 个 标准 的 知识 库 应 具有 推理 机 制 ,能 实现 知识 
推理 与 知识 挖掘 ,但 部 分 知识 库 由 于 其 事实 数据 层 存 
储 混乱 ,没有 合理 的 数据 表 结 构 , 且 元 数据 字段 划分 不 
够 科学 ,不 能 体现 中 医 诊疗 特色 ,造成 数据 宛 余 .数据 
冲突 ,其 功能 仍 停留 在 数据 库 层面 ,本 质 上 还 是 不 同 领 
域 的 数据 集合 。 无 论 构 建 中 医 医 案 数 据 集 还 是 知识 


间 宰 痰 取 和 上 整 合 ,最 终 基于 DOI 构建 了 医学 领域 科技 
评价 文献 数据 集 ,但 该 方法 也 受 数据 库 以 及 检索 主题 
词 透 择 的 影响 ,其 准确 性 与 全 面 性 只 能 得 到 初步 验证 ， 


放 评价 核心 数据 原始 项 目 清 
单 ,并 利用 德尔 菲 调查 法 对 纳入 核心 数据 集 的 数据 进 
行 修正 ,最 终 通过 共识 会 议 形成 了 核心 数据 集 , 这 种 方 
法 尽 可 能 多 地 考虑 了 相关 因素 的 影响 ,但 对 于 核心 数 
据 的 选择 可 能 无 法 达成 完全 共识 。 对 于 医学 数据 来 
说 ,其 关联 数据 范围 十 分 广泛 ,涉及 到 疾病 治疗 .公共 


库 , 所 应 用 的 元 数据 要 能 够 使 具有 诊疗 价值 的 信息 充 
分 结构 化 ,还 要 做 好 术语 的 规范 化 和 标准 化 工作 。 


2 ”中 医 医 案 元 数据 选择 与 术语 规范 化 处 理 


2.1 元 数据 的 选择 

元 数据 是 描述 数据 属性 的 结构 化 数据 ,功能 主要 
为 资源 的 组 织 . 挖 扬 、 互 操作 ,数字 鉴别 和 保存 ”。 如 
果 临 床 数据 大 多 处 于 散乱 ,无 序 的 状态 ,并且 存在 记录 
格式 不 统一 、 存 档 方式 无 统一 规范 ,那么 就 无 法 有 效 地 
共享 与 查找 资源 ,造成 大 量 临 床 数据 流失 ,形成 信息 孤 
岛 。 目前 ,国际 上 还 没 公 认 的 中 医 病案 元 数据 标 
准 。 因 为 中 医 语言 特点 ,国际 通用 的 元 数据 标准 虽然 
有 很 好 的 交互 性 ,但 并 不 能 准确 描述 中 医 资源 ,而 中 医 


卫生 、 人 口 统计 等 多 个 方面 ,因此 构建 医学 数据 集 
要 对 应 用 场景 以 及 主题 外 延 进行 合理 限定 ,避免 一 味 
求全 造成 主题 不 够 明确 ,导致 数据 爆炸 ;此 外 还 要 综合 
考虑 构建 者 及 领域 专家 的 主观 局 限 性 等 因素 影响 ,多 
运用 访谈 以 及 德尔 菲 调 查 法 进行 数据 的 六 选 与 修正 。 


医 案 记录 的 行文 自由 性 也 局 限 了 元 数据 标准 的 选择 。 
本 研究 团队 李 责 等 整理 设计 了 一 套 中 医 医 案 元 数 
据 ” ,并 在 综合 分 析 大 量 标准 以 及 文献 的 基础 上 , 运 
内 容 分 析 法 ,专家 咨询 法 和 实地 调研 法 进行 完善 ,最 
终 得 到 一 套 比 较 合理 普遍 适用 且 精 度 较 高 的 中 医 医 


| 


目前 国内 外 医学 领域 数据 集 的 建立 对 健康 管理 .医学 
影像 管理 ,疾病 预测 等 具有 重要 的 数据 支持 和 辅助 决 
策 作 用 。 全 球 已 经 建立 起 了 OASIS、NSCLC 等 多 个 医 
学 病例 分 析 数 据 集 ,此 外 还 有 医学 降 噪 数据 集 与 医学 
分 割 数 据 集 等 ,其 中 大 部 分 为 图 像 数据 集 ,如 大 脑 结构 


案 元 数据 方案 。 本 研究 数据 集 构建 即 以 此 套 元 数据 为 
蓝本 ,在原 有 的 元 数据 结构 上 做 了 一 些 细微 调整 , 以便 
更 好 地 适应 数据 的 采集 与 保存 。 

2.2 元 数据 结构 的 修订 

为 了 让 医学 工作 者 方便 快捷 地 输入 数据 ,让 数据 
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管理 者 可 以 对 数据 集 内 的 数据 进行 第 查 整 理 ,让 导出 
的 数据 质量 满足 科研 工作 者 的 分 析 要 求 ,根据 元 数据 
的 功能 和 特点 , 拟 将 整体 元 数据 分 为 两 大 结构 : 医 案 描 
述 元 数据 与 医 案 管理 元 数据 。 其 中 , 医 案 描述 元 数据 
是 详细 记载 诊疗 过 程 的 元 数据 ; 医 案 管理 元 数据 则 对 
医 案 本 身 的 保存 流转 进行 客观 记录 。 通 过 对 网 络 上 现 
有 医 案 病 历 进行 分 析 可 以 得 出 以 下 几 种 情况 :中 出 于 


对 个 人 隐秘 的 保护 ,患者 的 基本 信息 部 分 常常 缺 省; 
书 患 者 主诉 症状 往往 与 四 诊 情 况 一 起 描述 , 即 由 上 患 

口述 主要 病情 后 ,医生 随即 通过 望 , 闻 、 问 \ 切 四 诊 合 参 
来 进一步 辩证 分 析 ;(3 医 生 诊 断 与 药方 医嘱 间 联 系 紧 


密 。 因 此 ,平衡 各 部 分 的 信息 量 , 考 虑 医 案 整 体 脉络 以 


2.3 术语 规范 化 处 理 

在 以 上 各 个 信息 子 集中 ,由 于 所 涉及 的 数据 内 容 、 
数据 来 源 以 及 用 途 各 不 相同 ,所 以 各 个 子 集 内 所 选用 
的 标准 也 不 尽 相同 , 而 标准 化 术语 是 医学 信息 学 发 展 
的 基础 , 它 为 记录 信息 提供 了 基本 的 框架 结构 ,使 原始 
言 息 数据 保持 一 致 ,是 解决 语义 互 操作 性 、 知 识 表达 一 
致 性 以 及 医疗 资源 共享 性 的 有 效 手段 ”。 在 中 医 领 
域 ,《 中 医药 学 语言 系统 语义 网 络 框架 》 规 定 了 中 医药 
学 语言 系统 的 语义 类 型 语义 概念 及 语义 关系 ,并 对 其 
进行 了 详细 定义 。 该 标准 的 提出 不 仅 规 范 和 支持 了 中 
医药 学 语言 系统 的 建设 ,还 为 中 医药 学 术语 系统 和 本 
体 创 建 提供 了 语义 标准 ,为 中 医药 学 语言 系统 和 统一 


及 内 在 逻辑 ,将 整个 医 案 描述 元 数据 部 分 分 为 医 案 标 
识 信 息 集 .上 患者 基本 信息 集 等 5 个 子 集 ;再 从 医 案 保存 
的 角度 考虑 ,参照 现 阶段 医院 门诊 病历 的 存放 规 
则 建立 医 案 管理 .流转 信息 子 集 ,记录 医 案 保存 传递 
的 加 体 信息 。 具体 结构 如 图 1 所 示 : 
© 


医 案 描 述 元 数据 


图 
+ 
© ， 医 案 标识 信息 患者 基本 信息 。 诊 疗 过 程 信息 
中 。 论断 治 法 信息 。。 影 像 检查 信息 
2 医 案 管理 元 数据 
A 。 医 案 管 理 信息 。 。 上 医 案 流转 信息 
一 


图 1 元 数据 结构 


厘清 元 数据 结构 之 后 ,对 每 种 元 数据 的 每 张 信 息 
了 简单 的 字段 划分 ,为 后 续 设 计 做 好 准备 ,如 表 1 


~ 


对 诺 inaX 


表 1 中 医 诊疗 数据 集 各 信息 表 元 数据 情况 汇总 
元 数据 数量 “元 数据 总 量 


信息 表 字段 个 ys 
医 案 标 识 信息 表 一 8 8 
基本 信息 字段 8 
体格 检查 字段 4 
患者 基本 信息 子 集 辅助 检查 字段 1 24 
既往 病史 字段 8 
个 人 及 家 族 史 字段 3 
诊疗 过 程 信息 子 集 主诉 字段 3 
四 诊 合 参 字 段 21 24 
诊断 治 法 信息 子 集 诊断 字段 
治 法 字段 8 12 
影像 检查 信息 子 集 一 6 6 
医 案 流转 信息 子 集 一 12 12 
医 案 管理 信息 子 集 一 a) | 
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的 医学 语言 系统 映射 提供 了 支持 ,对 中 医药 学 术语 信 
息 的 交换 具有 重要 意义 ”。 根 据 医学 领域 对 术语 标 
准 化 的 规定 ,医学 名 词 应 使 用 全 国 科 学 技术 名 词 审 定 
委员 会 公布 的 名 词 , 男 外 对 尚未 确定 使 用 标准 的 名 词 
参照 表 2 执行 : 

表 2 医学 领域 不 确定 名 词 使 用 标准 
主题 词 表 及 术语 系统 适用 情况 备注 
标准 医学 主题 词 表 


医学 主题 词 表 尚未 通过 审定 的 学 
(MESH) 科 名 词 


医学 主题 词 注释 字 ”尚未 通过 审定 的 学 


是 MESH 的 扩充 版 , 专 供 


顺 表 科 名 词 标 引 、 编 目 和 联机 检索 使 用 

中 国 中 医药 学 主题 ”尚未 通过 审定 的 学 ”为 建立 中 医药 科技 情报 检 

词 表 科 名 词 索 体系 奠定 基础 ,以 适应 中 
医药 事业 的 发 展 

中 医 临床 诊疗 术语 ”中 医 名 词 术 语 于 中 医 病案 的 用 词 规 范 ， 

疾病 、 证 候 、 治 法 部 病案 中 中 医 疾病 诊断 信息 

分 的 统计 

中 华人 民 共 和 国药 ”尚未 有 通用 译名 的 ”简称 《中 国药 典 》,2015 年 

典 名 词 术语 6 月 5 日 由 中 国医 药 科技 
出 版 社 出 版 ,由 国家 药典 委 
员 会 创 

中 国药 品 通 用 名 称 尚未 有 通用 译名 的 ”是 中 国法 定 的 药物 名 称 ， 

名 词 术语 国家 药典 委员 会 负责 制定 

经 穴 部 位 .耳穴 名 称 ” 经 络 针灸 学 名 词 术 ”其 著录 方式 参照 采用 世界 

与 部 位 语 卫生 组 织 总 部 针灸 穴 名 国 
际 标 准 化 科学 组 会 议 审定 
通过 的 《标准 针灸 穴 名 》 


3 中医 诊疗 数据 集 构 建 方法 


3.1 数据 集 构建 流程 

出 于 对 数据 集 应 用 的 综合 考虑 ,在 构建 过 程 中 应 
注意 以 下 几 点 问题 :中 此 数据 的 主要 功能 是 记录 详细 
的 诊疗 过 程 , 因 此 元 数据 数量 较 多 ,要求 对 数据 表 的 字 
段 划分 合理 内容 简洁 明了 逻辑 层次 清晰 ;外 为 了 更 
好 地 形成 数据 共享 生态 系统 ,应 对 数据 集 进 行 结构 化 
标记 ,以 达到 数据 共 建 共享 .知识 交流 的 目的 ;@ 由 于 
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此 数据 集 的 一 个 应 用 场景 为 实地 采集 数据 ,因此 数据 
集 采集 界面 的 设计 以 及 后 续 数据 管理 系统 的 开发 也 是 
数据 集 完善 和 维护 需要 考虑 的 重要 问题 。 结 合 前 期 准 
备 工作 ,整体 数据 集 构建 流程 如 图 2 所 示 : 


确定 数据 集 领域 以 及 
功能 


查询 文献 资料 
提取 知识 元 


| 


EB 整理 元 数据 


加: 刚 号 午 昌 


领域 专家 评审 
是 否 通 过 


根据 国家 以 及 行业 标准 ， 
进行 术语 标准 化 


结合 实际 业务 流程 
设计 数据 表 


进行 数据 集 
概念 设计 


进行 数据 集 
逻辑 设计 


六 雪 襄 证 清 鲜 丫 


202304.00734v1 


录 人 数据 ， 并 实行 结构 化 
数据 标记 


l 


形成 数据 集 


图 2 数据 集 构建 流程 
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3.2 数据 集结 构 设 计 

数据 集 的 结构 类 似 于 关系 数据 库 的 结构 ,是 由 表 、 
行 、 列 等 对 象 构成 的 层次 结构 ,同时 也 包含 数据 集 定义 
的 约束 和 关系 。 因 此 此 处 参考 关系 数据 库 的 构建 方法 
和 步 又 设计 数据 集结 构 。 

3.2.1 数据 集 的 概念 结构 设计 

数据 库 构 建 有 三 范式 ,为 数据 库 的 设计 提供 了 基 
础 的 逻辑 要 求 ,在 此 基础 上 根据 具体 情况 作出 适当 修 
改 。 

第 一 范式 为 “每 个 实体 的 元 组 中 的 每 一 个 属性 都 
不 可 再 分 "。 在 上 述 设计 数据 表 中 大 部 分 的 列 都 满足 
不 可 分 割 属性 ,但 在 患者 基本 信息 子 集中 的 “辅助 检 
查 " 字 段 考 虑 到 患者 进行 辅助 检查 的 方法 众多 ,每 种 方 
法 又 有 各 自 的 专业 术语 进行 描述 ,是 一 个 十 分 庞大 且 


复杂 的 字段 ,本 着 录入 数据 的 简便 性 以 及 查找 数据 的 
便捷 性 ,此 处 不 做 穷尽 列举 ,将 所 有 辅助 检查 信息 合 3 
到 同一 列 ; 同样 地 ,在 诊断 治 法 信息 子 集 的 “治疗 方 
法 ?字段 中 ,每 种 用 药 的 名 称 .剂量 使 用 方法 以 及 注意 
事项 均 为 一 一 对 应 关系 ,不 应 该 把 名 称 或 剂量 单独 提 
取 在 一 列 中 ,这 样 就 失去 了 数据 的 价值 ,因而 在 此 处 ， 
对 “方药 名 称 ” 等 元 数据 进行 合并 。 

第 二 范式 为 “每 个 实体 的 元 组 中 不 能 存在 与 主键 
字 无 关 的 属性 ”。 考 虑 到 对 个 人 隐私 的 保护 , 医 案 中 
“姓名 ”等 涉及 个 人 隐私 的 字段 常常 缺 省 ,因此 ,此 类 
字段 不 适合 设置 为 数据 表 的 主键 , 故 在 每 张 数 据 表 中 
添加 “ 医 案 编号 "字段 并 设 为 主键 ,每 张 数据 表 处 于 并 
列 等 级 。 

第 三 范式 为 “每 个 实体 元 组 中 非 关 键 字 属 性 不 存 
在 依赖 关系 ”。 每 张 数 据 的 每 一 列 都 具有 独立 性 , 且 划 
分 符合 医 案 基本 逻辑 ,避免 了 数据 宛 余 和 信息 混乱 。 

根据 上 述 规则 创建 各 数据 表 , 并 根据 实际 情况 以 
及 数据 要 求 对 表 中 的 数据 进行 约束 : 

(1) 医 案 标识 信息 表 。 如 表 3 所 示 : 

表 3” 医 案 标 识 信息 表 


列 名 数据 类 型 大 丰厚 备注 标准 
许 空 值 
医 案 编号 int 不 允许 ” 医 案 在 知识 库 中 的 编号 DC 
医 案 名 称 ”nvarchar(20) 允许 医 案 的 标题 DC 
医 案 来 源 nvarchar(20) 允许 医 案 出 自 哪 本 医书 或 病例 集 ”DC 
医 案 作 者 。 nchar(10) 允许 医 案 创 作者 或 就 诊 医 师 姓 名 DC 
就 诊 日 期 date 允许 患者 就 诊 日 期 DC 
必 录 日 期 date 不 允许 医 案 收录 日 期 DC 
医 案 科 别 。 nchar(10) 允许 医 案 所 属 中 医 类 别 GB/T 15657 
-1995 

病 证 分 类 nvarchar(20) 允许 ” 医 案 记 录 患 者 主 病 的 症候 。 标准 


(2) 患 者 基本 信息 表 。 患 者 基本 信息 表 详 细 记录 
患者 的 个 人 信息 ,包括 患者 姓名 、 性 别 等 基本 信息 ,也 
包括 既往 病史 .个 人 生活 史 等 对 病情 可 能 产生 影响 的 
因素 ,其 数据 标准 参考 WS445. 11 - 2014 中 华人 民 共 
和 国 卫生 行业 标准 - 中 医 病案 住院 首页 部 分 ,此 标准 
详细 列 出 了 GB/T 2261 -2003 个 人 基本 信息 分 类 与 代 
码 、 卫 生 信 息 数 据 元 值 域 与 代码 等 ,一 共 分 为 17 个 部 
分 ,此 处 主要 参考 第 11 部 分 。 见 表 4。 

(3 ) 诊 疗 过 程 信息 表 。 诊 疗 过 程 信息 子 集 记 录 临 
床 疾病 的 诊断 过 程 ,传统 中 医 通 过 “ 望 ”“ 闻 ”“ 问 ” 
“ 切 ” 四 诊 合 参 来 了 解 病 情 , 期 间 辅 以 患者 主诉 情况 ， 
医者 综合 刻下 症 ( 即 患者 就 诊 时 的 症状 ) 与 患者 患 病 
过 程 来 判定 病情 。 此 类 对 病情 的 主观 描述 具有 很 强 的 
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宇 , 等 .基于 医 案 元 数据 的 中 医 诊 疗 数据 集 构建 方法 与 实证 研究 [J]. 图 书 情报 工 


马 捷 ， 王 廷 ， 孙 恒 ,2021 ,63 (2) 
36. 
表 4 患者 基本 信息 表 
列 名 数据 类 型 是 否 允 许 空 值 备注 标准 
医 案 编号 int 不 允许 外 键 ,引用 医 案 基本 信息 表 
姓名 nchar(10) 允许 多 为 患者 挂号 时 登录 的 个 人 信息 ,为 保护 个 人 隐私 ,数据 集中 可 缺 省 
体温 nchar( 10) 允许 诊室 内 即 可 检查 的 项 目 , 且 就 诊 时 多 需要 量 取 当 下 数据 GB/T 2261 -2003 
辅助 检查 nvarchar( 50) 允许 各 类 项 目 检查 结果 ,例如 :体检 单 ,CT ,核磁 
过 敏 史 nvarchar(20) 允许 记录 患者 既往 疾病 ,重点 是 慢性 病 、 传 染病 等 WS445. 11 -2014 
生活 习惯 nvarchar(20) 允许 记录 与 病症 相关 的 个 人 经 历 WS445. 11 -2014 


灵活 性 ,尤其 患者 主诉 部 分 需要 医者 通过 临床 经 验 转 化 

为 医学 相关 信息 ,在 记录 中 主要 参考 两 项 标准 :GB_T 

15657 - 1995 中 医 病 证 分 类 与 代码 .GB_T 16751.2 - 1997 

中 医 临床 诊疗 术语 症候 部 分 ,此 处 列举 部 分 数据 的 示例 

以 便 参 考 。 在 对 主要 病因 的 解读 与 患者 主 证 的 记录 方 

面 ,不 同 医 案 记 录 格式 有 所 不 同 ， 
> 


HH = 
贾 李 荐 


等 ”在 关于 中 
表 5 


医 病 证 分 类 体系 的 研究 中 ,根据 临床 实用 性 和 证 候 概 念 
的 自身 特点 ,形成 了 证 候 类 概念 多 维度 归 类 的 原则 。 本 
次 数据 集 设 计 具 体 数据 的 记录 方式 可 在 参考 GB/T 


15657 - 1995 中 医 病 证 分 类 与 代码 、 医 疗 机 构 诊疗 科目 
名 录 - 中 医科 .CBZT 16751.2 - 1997 中 医 临床 诊疗 术语 
症候 部 分 的 基础 上 进行 灵活 扩展 。 如 表 5 所 示 : 
诊疗 过 程 信息 表 


PS 列 名 数据 类 型 是 否 允许 空 值 说 明 示例 
医 案 编号 int 不 允许 外 键 ,引用 医 案 基本 信息 表 
人 加 主要 症状 text 不 允许 记录 患者 主要 症状 、 患 病 部 位 及 程度 恶心 呕吐 
© 舌 诊 nchar(20 ) 允许 主要 记录 舌 色 .舌苔 苔 白 、 色 红 
日 面色 nvarchar(50) 允许 主要 记录 面部 状态 .色泽 面色 民 悦 .水肿 
问 寒热 nvarchar( 50) 允许 记录 患者 其 寒 或 其 热 的 情况 旦 寒 、. 晴 风 
CH WT nvarchar(50) 允许 记录 患者 日 常 以 及 夜间 出 汗 情况 夜间 盗汗 
CN 国 声 和 nvarchar( 50) 多 许 记录 患者 说 话 .喘息 声音 气 中 
人 闻 气 味 nvarchar( 50) 允许 记录 患者 发 出 的 不 正常 气味 口臭 
CN 及 诊 nchar(20) 允许 中 医 把 脉 情况 脉 滑 、 脉 细 数 
=” 按 诊 nvarchar( 50) 多 许 按压 患者 体 表 穴位 的 情况 腹 软 


S<(4) 诊 断 治 法 信息 表 。 诊 断 治 法 信息 子 集 主要 记 
录 翅 者 主 证 ,使 用 方剂 名 称 和 用 法 以 及 一 些 医者 给 出 


的 生活 习惯 建议 ,参考 标准 为 CBMT 16751.3 -1997 中 
医 临床 诊疗 术语 治 法 部 分 。 如 表 6 所 示 : 


mm 表 6 诊断 治 法 信息 表 
a 
《》 列 名 数据 类 型 是 否 允 许 空 值 说 明 示例 

医 案 编号 int 不 允许 外 键 , 引 用 医 案 基 本 信息 表 
患者 主 证 nvarchar( 50) 不 允许 患者 的 主要 病症 ,包含 患 病 部 位 、 患 病程 度 等 信息 咳嗽 
辩证 分 析 nvarchar( 50) 允许 辩 清 疾病 的 病因 性质 .部 位 风寒 证 

治 则 nvarchar( 50 ) 允许 Pp 医治 疗 疾病 的 法 则 ,包含 治疗 原则 与 方法 清 利 湿热 . 玖 肝 理 气 ,活血 镇 痛 

方药 名 称 、 剂 量 . 用 法 。 nvarchar( 100) 允许 
其 他 医嘱 nvarchar( 50) 人 允许 
(5) 影 像 检查 信息 表 。 在 患者 问 诊 过 程 中 ,可 能 能 需要 相关 影像 检查 信息 作为 参考 ,影像 检查 信息 子 
会 提供 一 些 以 往 影像 检查 的 资料 ,在 医生 诊断 时 ,也 可 | 集 详 细 记 录影 像 检查 情况 。 如 表 7 所 示 : 
表 7 影像 检查 信息 表 

列 名 数据 类 型 是 否 允许 空 值 说 明 举例 
医 案 编号 int 不 允许 外 键 ,引用 医 案 基 本 信息 表 
影像 检查 号 nchar(10) 允许 影像 科室 标识 受 检 者 接受 某 次 检查 时 的 特征 编号 

检查 唯一 标识 符 nchar(10 ) 允许 某 次 检查 中 影像 设备 生成 的 检查 唯一 标识 符 

检查 部 位 nchar(10) 允许 受 检 者 在 某 次 检查 中 的 检查 部 位 头 部 
检查 方法 nvarchar( 50) 允许 对 受 检 者 采用 的 检查 方法 CT 
检查 日 期 nchar( 10) 人 允许 
检查 机 构 nchar( 10) 允许 检查 的 医疗 机 构 名 称 
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(6) 医 案 流 转 信 息 表 。 医 案 流转 信息 子 集 记录 医 
案 的 录入 与 导出 ,明确 医 案 的 责任 人 与 流动 路 径 。 如 
表 8 所 示 : 

表 8 医 案 流转 信息 表 


列 名 数据 类 型 。” 是 否 允许 空 值 说 明 
医 案 编号 int 不 允许 。 外 键 ,引用 医 案 基本 信息 表 
录入 人 员 nchar(10) 人 多 许 负责 将 医 案 录入 数据 库 的 人 员 
录 人 日 date 人 多 许 医 案 入 库 日 期 
传递 人 员 。 nchar(10) 人 允许 
传递 日 date 人 允许 
传递 机 构 nchar(10) 允许 

责任 人 nchar(10) 介 许 


《7) 医 案 管理 信息 子 集 。 医 案 管理 信息 子 集 记 录 
医 案 的 客观 管理 情况 ,是 对 医 案 内 容 的 客观 评价 。 如 


表 9. 所 示 ; 
< 二 


表 9 医 案 管理 信息 表 


ee 
数据 类 型 er 说 明 
委 案 编号 。 nchar(10) 不 允许 。 外 键 ,引用 医 案 基本 信息 表 
芭 从 员 nchar(10) 允许 。 负责 对 数据 库 内 医 案 进行 整理 的 人 员 
缚 生化 整 理 。 nehar(10) 允许 记录 语句 .概念 粒度 等 


GB nchar(10) 允许 


人 oo 


ON 上 是 对 中 医 诊疗 数据 集 各 个 信息 表 的 整理 ,在 
满 定 实际 实用 的 基础 上 尽 可 能 符合 国家 以 及 行业 标 
;篇 中 医 在 不 断 的 发 展 中 会 有 新 概念 的 产生 与 旧 概念 
的 出 除 , 故 以 上 所 采用 的 标准 也 会 随 着 实际 应 用 情况 
的 变化 进行 更 新 。 
总 数据 集 的 逻辑 结构 设计 

数据 库 结构 是 指 在 计算 机 的 存储 设备 上 存放 合理 
的 、 相 互 关 联 , 有 逻辑 结构 的 数据 集合 的 结构 。 一 个 数 
据 库 结构 有 很 多 层次 ,如 数据 表 .字段 等 。 由 于 中 医 医 
案 信息 层次 众多 、 相 互 依存 的 特点 ,在 对 其 进行 统计 分 
析 时 , 既 要 从 整体 角度 考虑 又 要 把 握 每 部 分 的 重点 信 
息 。 如 图 3 所 示 ,本 次 设计 数据 库 结构 的 特点 ,就 是 以 
“ 医 案 编号 "为 主键 ,联系 起 从 诊疗 过 程 中 医 患 两 方 的 
详细 信息 再 到 诊疗 结束 后 保存 管理 机 制 的 信息 。 

如 此 设计 避免 了 一 张 数据 表 内 信息 超载 .字段 宛 
长 且 不 易 定位 的 缺点 ,能 让 数据 分 析 人 员 清晰 地 了 解 
数据 集结 构 ,方便 进行 数据 存 取 与 处 理 。 
3.3 数据 集 采 集 系统 设计 

本 研究 采用 开发 c# 应 用 程序 来 进行 中 医 诊疗 数 
据 采 集 系 统 的 设计 和 应 用 ,创建 windows 窗 体 的 组 件 ， 
并 利用 DataAdapter 对 象 实现 数据 库 内 容 的 显示 与 交 


医 案 标 识 信息 表 | 诊疗 过 程 信息 表 
= SS 本 本 
医 案 各 称 | 主要 症状 
医 案 来 尖 0 伴随 症状 
a 
诊断 洛 法 信息 才 下 中医 诊疗 数据 集 影像 检查 信息 支 
团 。” 医 案 编号 。 一 中 加” 医 案 编号 小 | 避 。 医 党 编号 
”中 医 诊断 。 医 案 名 称 ”检查 单位 。 
辨证 分 析 由 者 姓名 唯一 标 问 符 
患者 主 证 
医 案 管理 信息 过 医 案 流 转 信息 去 
轩 。 医 案 编号 | 1 加 。 医 案 编 号 
整理 人 员 I 
结构 化 审核 录入 日 其 


3 数据 集 逻 辑 结构 


互 式 更 新 。DataAdapter 对 象 在 数据 源 与 DataSet 之 间 
起 到 桥梁 作用 , 既 可 以 将 数据 录入 到 DataSet 的 数据 表 
中 ,也 可 以 将 DataSet 的 数据 更 改 送 回 数据 源 ,这 就 使 
采集 系统 除了 可 以 进行 数据 采集 之 外 ,还 包含 存储 、 修 
改 等 功能 ,而 数据 分 析 则 可 在 数据 库 内 进行 。 

对 于 中 医 实地 诊疗 数据 采集 来 说 ,数据 集 录 入 界 
面 设计 及 功能 设计 非常 重要 ,对 易 用 性 的 要 求 很 高 , 须 
构建 一 个 友好 的 信息 录 和 页面, 字段 安排 应 符合 逻辑 ， 
录入 时 不 用 反复 切换 数据 表 , 录 入 框 应 设置 常用 自动 
选择 项 ,节约 录入 时 间 , 为 医生 、 患 者 以 及 数据 导入 人 
员 提 供 便 利 。 在 保证 录入 效率 的 同时 可 以 将 一 些 非 医 
学 字段 交 由 患者 自行 填写 ,设计 多 端 数 据 同 步 , 提 高 问 
诊 效率 ,将 四 诊 的 具体 字段 按 顺 序列 出 ,医生 可 以 在 相 
应 位 置 直接 录入 。 在 录入 药方 以 及 医嘱 时 ,可 以 先 将 
药品 名 称 以 及 用 药 要 求 提前 录入 数据 库 ,医生 可 以 根 
据 实际 情况 选择 默认 或 更 改 用 药 要 求 ,不 用 再 反复 输 
人 人。 数据 采集 系统 的 界面 见 图 4。 


4 ”实证 研究 


数据 集 的 优点 在 于 能 实现 高 效率 的 数据 访问 和 操 
作 , 且 具有 快速 定位 检索 查询 .数据 交互 等 功能 ,为 了 
考量 数据 集 构建 的 合理 性 与 灵活 性 , 现 从 网 络 已 有 中 
医 医 案 与 实地 诊疗 两 方面 采集 数据 ,初步 形成 数据 集 ， 
进行 实证 研究 。 

4.1 网 络 医 案 数据 的 采集 
4.1.1 网 络 医 案 数 据 的 筛选 
在 网 络 上 查找 中 医 医 案 的 过 程 中 发 现 , 现 阶 段 ,网 
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马 捷 ， 王 于 ,， 孙 恒 字 , 等 .基于 医 
36. 


案 元 数据 的 中 医 诊疗 数据 集 构建 方法 与 实证 研究 [J] ,图书 情 擒 工 外 30V 员 ( 


医 案 标识 信息 


医 案 编号 医 案 名 称 EE 过 厅 源 [| EE 作者 
就 诊 日 其 收录 日 期 医 案 科 别 病 证 分 类 


患者 基本 信息 


姓名 [E 某 ] 4 区 | 给 攻 


| Ri Ea | 


i Tr 
耻 往 疾病 史 [放血 病史 40 年 | 手术 史 | 玩 ” ”| 过 葵 史 攻 ” ”| ”辅助 检查 心 醒 三 项 肌 红 和 白 95.26ng/ 


家 族 泪 传 史 [无 输血 史 [ 匹 _ 


| 二 [间断 口服 卡 托 音 和 。 个 人 经 历 [工作 压力 大 


Wh xp[C | sa 


诊疗 过 程 信息 


EE faa i 
A EE | go | sme a | we [Bt 
at | WE |] %KI 外 kae[ | 


望 四 肢 指 趾 | 下 胶水 肿 ， 四 肢 示 | 望 排出 物 
a RR | If | 


问 周身 不 适 问 有 目 i 限 医 睛 肖 可 


Er en [| in | 


304.00734v1 


颖 站 的 医学 网 站 数量 众多 ,有 小 及 中 医 诊 疗 方面 的 数 
握 尖 多 分 散 , 不 好 让 取 , 在 对 中 医 医 案 、 病 例 的 记载 中 ， 
不 同 网 页 的 数据 风格 过 异 , 所 采用 的 字段 各 不 相同 。 
雾 虑 到 录 人 数据 质量 ,对 网 络 医 案 数据 筛选 提出 如 下 
儿 则 原则: 

-三 (1) 缺乏 基本 患者 信息 的 不 收录 。 对 于 患者 性 
别 & 年 龄 等 必要 信息 缺失 的 不 予 收录 。 患 者 的 年 龄 .性 
别 对 中 医 诊断 具有 重要 的 参考 作用 ,因此 这 类 信息 不 
可 缺失 。 

考虑 到 患者 的 隐私 保护 问题 ,网 络 上 中 医 病例 的 
记载 大 多 以 “患者 , 男 ,33 岁 "或 “患者 ,中 年 女性 " 描 
述 ,中 医 崇尚 以 人 为 本 ,同类 症状 对 不 同 患 者 而 言 具 有 
不 同 的 诊疗 方法 ,如 果 缺 乏 此 类 信息 ,那么 后 续 的 诊疗 
用 药 描述 则 不 具有 分 析 意 义 。 

(2) 缺 乏 主要 症状 描述 的 不 收录 。 在 症状 表述 部 
分 ,因为 没有 统一 标准 ,没有 固定 格式 ,所 以 每 个 网 站 、 
每 种 疾病 都 有 不 同 的 表述 方法 ,甚至 对 于 同一 种 疾病 
下 的 症状 的 表述 都 不 尽 相同 。 现 阶段 网 站 收集 病例 为 
了 避免 要 求 过 于 严 萌 而 无 法 上 传 数 据 的 现象 ,把 现 病 
史 部 分 统称 为 “主诉 ”或 “主要 症状 ” ,在 此 次 数据 试 录 
的 过 程 中 ,也 主要 将 这 一 部 分 的 数据 收集 进 “ 患 者 基本 
信息 子 集 ”" 和 “诊疗 过 程 信息 子 集 ”。 在 数据 筛选 的 过 


[后 行 | 


MS 脉 诊 | 脉 沉 细 无 力 按 诊 
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程 中 , 噜 除 掉 症 状 表 述 模糊 不 清 、 过 于 笼统 .存在 疑问 
的 病例 ,以免 影响 后 续 数 据 处 理 。 

《3) 缺乏 治 则 的 不 收录 。 每 一 个 完整 的 医 案 与 经 方 
的 重点 便 是 治 法 治 则 ,此 类 信息 是 对 病例 的 总 结 ,也 是 
最 具 统 计 研 究 意义 的 部 分 ,有 些 网 站 为 了 表述 中 医 症 
状 ,收集 了 大 量 医 书 和 古籍 对 于 该 病 证 的 介绍 ,用 于 普 
及 和 解释 一 些 难以 理解 的 中 医 病 症 术 语 ,但 其 最 终 治 法 
却 缺 省 或 表述 不 清 ,对 于 此 类 中 医 症 状 数据 不 子 收 录 。 

(4) 剔除 非 医 案 数据 。 现 阶段 ,大 量 医学 咨询 网 
站 上 内 容 丰 富 ,信息 繁杂 ,给 网 络 问 诊 的 患者 尽 可 能 地 
提供 更 多 的 帮助 ,因此 在 相关 病例 的 记载 中 ,也 会 记录 
大 量 与 中 医 病案 无 关 的 字段 ,如 “此 病 是 否 属于 医保 ” 
“最 佳 就 诊 时 间 ” 就 诊 前 准备 “三 甲 医院 治疗 费用 ” 
等 诸多 信息 ,此 类 信息 对 于 患者 问 诊 有 很 大 帮助 但 与 
医 案 记录 无 关 , 故 应 剔除 。 

(5) 存 在 知识 产权 限制 的 不 收录 。 有 的 网 站 信息 
是 公开 共享 的 ,有 的 网 站 标注 转载 需要 告知 ,而 有 的 是 
明确 要 求 不 可 以 转发 拷贝 的 ,在 录入 网 络 数 据 时 应 提 
前 了 解 此 方面 信息 ,尊重 个 人 隐私 ,尊重 知识 产权 , 存 
在 知识 产权 限制 的 医 案 不 予 收录 。 
4.1.2 数据 的 试 录 与 评价 

网 络 数据 试 录 的 主要 目的 是 检验 数据 集 的 合理 
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性 ,要 求 录入 数据 符合 规范 ,本 次 数据 试 录 的 数据 选 自 
“ 爱 爱 医 医学 网 一 一 精 选 中 医 病例 ”以 及 “中 医 世 


(3) 研 究 人 员 录 入 。 在 数据 集 创建 过 程 中 ,可 以 
由 项 目 研究 人 员 完 成 录入 。 一 种 方法 是 进行 现场 录 


家 一 一 医 案 心得 "两 个 开源 医学 网 站 ,这 两 个 网 站 中 医 
案 信息 的 录入 较为 全 面 , 且 字段 划分 与 本 研究 相近 ,前 
者 采用 手工 整理 的 方式 采集 54 条 精 选 中 医 医 案 数据 ， 
后 者 在 剔除 不 相关 信息 后 ,手工 整理 数据 47 条, 总共 
整理 数据 101 条 , 均 保存 为 Excel 格式 。 

在 试 录 数据 的 过 程 中 可 以 发 现 ,网 络 上 的 医 案 数 
据 虽 然 总 量 繁多 ,但 存在 一 些 数据 存疑 (经 网 站 专家 评 
论 指出 ) .信息 表述 模糊 数据 缺 省 过 多 等 现象 ,数据 利 
用 率 较 低 。 且 每 一 个 网 站 上 记载 医 案 信息 的 字段 都 不 
尽 相同 ,上 且 收录 侧重 点 不 一 ,基本 上 是 一 个 “字段 "对 
应 一 个 或 多 个 “信息 表 " 的 情况 ,给 数据 清洗 带 来 极 大 
困难 ,很 难 进行 批量 处 理 。 但 此 次 试 录 也 证 实 了 网 络 
医 案 中 的 数据 在 此 次 构建 的 数据 集中 均 有 其 匹配 字 
段 y 下 存在 已 有 医 案 相 关 数 据 却 无 字段 可 存放 的 现象 ， 
这 也 证 明 本 研究 的 数据 集 设计 可 以 满足 收录 网 络 中 大 
部 芍 医 案 病例 的 需求 。 

4 中 医 实地 诊疗 数据 采集 

中 录入 实地 诊疗 过 程 所 产生 的 数据 相 比 于 网 络 导入 
数据 更 能 体现 此 数据 集 的 优点 。 由 于 中 医 问 诊 特点 ， 
在 器 地 诊疗 过 程 中 ,大 量 的 隐 性 数据 无 法 收集 ,比如 
“ 锥 神态 "…“ 舌 诊 "“ 脉 诊 "等 ,中 医 在 诊疗 过 程 中 常常 从 
细 术 末节 的 地 方 收集 患者 与 病情 相关 的 信息 ,但 却 由 
防 看 病 效率 等 问题 不 会 记录 在 医 案 中 ,因此 导致 数据 
的 流失 。 

4:921 实地 采集 方法 

全 在 实地 采集 数据 前 ,应 对 所 需要 研究 的 数据 提前 
做 好 评估 ,规划 数据 数量 以 及 门诊 科室 等 信息 ,在 实地 
采集 中 可 以 采用 多 种 方法 以 完成 目标 任务 。 

(1) 由 医生 本 人 录入 。 医 生 在 诊疗 过 程 中 ,一 边 
问 诊 , 一 边 在 数据 采集 界面 录入 数据 ,在 问 诊 过 程 中 ， 
对 诊疗 具体 病症 所 涉及 到 的 元 数据 信息 尽 可 能 全 面 录 
入 。 医 生 对 诊疗 过 程 了 解 最 为 深入 ,这 种 方法 的 优点 
是 可 以 最 大 程度 地 保证 数据 的 质量 ,缺点 是 会 影响 医 
生 问 诊 效率 ,对 于 患者 数量 较 多 的 医生 来 说 存在 一 定 
的 限制 。 

(2) 由 医生 助理 录入 。 具 有 一 定 资历 的 中 医 一 般 
都 有 医生 助理 辅助 进行 诊疗 管理 ,可 以 由 医生 助理 完 
成 录入 工作 。 诊 疗 过 程 中 ,医生 需要 随时 将 望 闻 问 切 
得 到 的 信息 口述 出 来 ,由 医生 助理 完成 信息 录入 ,数据 
的 审核 整理 也 可 以 同步 进行 ,更 高 效率 地 利用 诊疗 时 
间 。 


音 ,完全 不 干扰 医生 问 诊 ,后 期 根据 录音 完成 数据 录 
入 ; 男 一 种 方法 是 研究 人 员 在 现场 根据 医生 问 诊 的 情 
况 及 时 录入 。 人 研究 人 员 录 入 的 优点 是 不 影响 医生 问 诊 
效率 ,而 且 人 研究 人 员 对 于 录入 系统 的 使 用 比较 熟练 ; 缺 
点 是 如 果 采 用 录音 的 方法 ,需要 在 录音 前 做 好 患者 隐 
私 保 护 方面 的 沟通 ;在 录入 完成 后 ,需要 由 医生 或 者 医 
生 助 理 进行 医 案 审 核 。 无 论 是 录音 还 是 现场 录入 ,都 
需要 诊疗 医生 将 望 闻 问 切 等 元 数据 涉及 到 的 信息 口述 
出 来 。 

(4) 多 种 方法 融合 采集 。 因 为 实地 采集 具有 很 高 
的 灵活 性 ,所 以 在 问 诊 现场 可 以 同时 采用 多 种 方法 , 安 
排 不 同人 员 分 工 合作 ,从 不 同 角 度 对 实时 产生 的 数据 
进行 采集 ,达到 最 高 的 数据 准确 度 ,减少 数据 遗漏 。 但 
采集 过 程 需要 提前 模拟 演练 ,在 采集 时 注意 配合 ,不 影 
响 到 问 诊 效率 。 
4.2.2 实地 数据 采集 
中 医 诊 疗 数据 的 采集 非 一 日 之 功 , 既 不 能 影响 医 
生 正 常 问 诊 效 率 , 又 要 保障 数据 集 数据 量 ,因此 需要 日 
积 月 累 、 逐 步 完 善 和 充实 数据 集 。 

进行 实地 数据 采集 之 前 , 先 由 本 次 研究 人 员 进 行 
模拟 问 诊 ,提高 录入 数据 的 熟练 度 。 实 地 数据 采集 时 ， 
采用 多 种 方法 融合 采集 ,由 研究 人 员 与 医生 及 医生 助 
理 共 同 配合 ,研究 人 员 进 行 患 者 基本 信息 以 及 最 终 药 
方 医嘱 的 录入 ;医生 则 根据 此 次 数据 集 设计 ,在 诊疗 过 
程 中 将 元 数据 涉及 到 的 信息 尽 可 能 地 口述 出 来 ;医生 
助理 录入 四 诊 数 据 , 校 准 专业 医学 术语 。 并 在 不 泄露 
患者 个 人 隐私 的 情况 下 进行 现场 录音 ,以 保证 能 够 核 
实数 据 的 全 面 性 和 准确 性 。 相 较 于 网 络 数据 爬 取 , 现 
场 采 集 的 数据 在 数据 质量 上 得 到 了 保证 。 
4.3 数据 集结 构 化 数据 标记 

构建 数据 集 并 非 闭 门 造 车 ,一 个 优秀 的 数据 集 也 
不 能 一 路 而 就 ,而 是 要 不 断 通 过 实际 检验 来 修改 和 完 
善 。 现 如 今 不 同 领域 建立 起 的 数据 集 不 胜 枚 举 、 种 类 
繁多 ,给 检索 和 查找 带 来 了 一 定 难 度 ,因此 也 产生 了 专 
业 的 科学 数据 集 检 索 平 台 , 既 有 综合 性 的 检索 平台 ,如 
DCI、Dataset Search; 也 有 聚焦 于 生物 医学 领域 的 
DataMed 等 。 为 了 更 好 地 检验 研究 成 果 , 越 来 越 多 的 
数据 集 存 储 区 采用 schema. org 及 类 似 标准 来 描述 数据 
集 ,用 户 通 过 数据 集 搜索 找到 的 数据 集 的 种 类 和 禾 盖 
范围 将 会 持续 增加 ,这 样 更 利于 数据 共享 共 建 。 

考虑 到 数据 集 后 续 应 用 ,此 处 采用 Google 的 数据 
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集 发 现 方 法 ,将 schema. org 标准 添加 到 描述 数据 集 的 
网 页 ,并 通过 结构 化 测试 工具 来 验证 数据 集 网 页 已 添 


上 传 后 的 数据 集 如 图 5 所 示 , 在 后 期 数据 采集 过 
程 中 , 除 本 团队 研究 人 员 之 外 ,也 会 邀请 协作 者 共同 完 


一 引 » 米 上 且 . 
加 的 结构 化 标记 。 善 数据 集 ,进一步 扩大 数据 量 。 
80.58 KB 《 诊疗 过 程 信息 表 (101 rows) 
~ 四 .xlsx 
四 医 案 标识 信息 表 Detail Compact Column 100f28¢c 
四 医 案 流转 信息 表 a ee ev 本 本 ee a 
四 医 案 管理 信息 表 闪 医 案 编号 三 A 主要 症状 三 A 伴随 症状 三 A 畴 病 时 间 三 A 舌 诊 三 A 望 口唇 三 A 望 面色 
四 影像 检查 信息 表 [null] 5% [null] 46% [null] 75% [null] 28% [null] 84% [null] 
四 赴 者 基本 信息 表 
四 诊 刀 驴友 信息 下 EE 3% 辣 3% ”6 人 月 2% 天 质 红 , 若 革 黄 。 3% 口 夺 无 凋 5% 面色 内 暗 
四 诊疗 过 程 信息 表 1 101 Other (93) 92 Other (52 C | other (1) 11 Other (12) 
31 右 下 腹 疼痛 香 红 若 黄 腻 
32 皮下 尝 癌 有 时 腹痛 隐隐 1 月 香 红 苦 黄 
33 饥 身 渐 起 包 块 四 肢 酸 楚 疼 痛 2 年 香 质 淡 ， 苦 腻 ， 切 肪 
34 下 唇 干燥 起 皮 、 微 痒 ， 时 而 口 千 欲 饮 6 个 月 舌 质 红 ， 若 薄 黄 口唇 色 淡 ， 口 唇 肿 大 ， 下 唇 
有 裂口 ， 甚 者 出 血 疼痛 线 消失 
35 咽 痒 作 咏 ， 锚 究 眼 痒 、 头 巡 血红 瘦小 ， 上 有 白 薄 苔 层 红 
头痛 、 下 颌 处 皮肤 出 现 闪 疮 
36 全 身 泛 发 大 小 不 等 的 紫红 色 冶 痒 时 轻 时 重 29 余 年 舌 淡 瞳 胖 ， 尖 边 红 ， 有 将 面色 灰暗 ， 环 
脱 悄 班 ， 约 有 三 分 之 二 的 皮 斑 ， 苦 厚 稍 黄 
守 37 四 肢 ， 胸 背 泛 起 大 小 不 等 紫 半年 多 舌尖 红 ， 苦 白 厚 口 千 面 稍 红 
>> 红色 脱 层 油 ， 癌 痒 
+ E 


© 
4@GP 数据 应 用 展望 
也 下 红 英 等 "在 第 十 四 届 国际 络 病 学 大 会 上 归纳 
TO0 类 中 医 医 案 的 分 析 方法 ,除了 个 人 领悟 分 析 之 外 ， 
壕 计 以 运用 统计 学 的 方法 对 医 案 集 内 数据 进行 处 理 ， 
相 测 于 个 人 领悟 ,统计 的 方法 有 其 系统 性 ,科学 性 的 优 
势 泡 张 晓 航 等 “探讨 了 机 器 学 习 方 法 与 深度 学 习 方 
法 在 中 医 诊疗 中 的 应 用 ,传统 机 器 学 习 算法 如 聚 类 算 
法 G 份 类 算法 .回归 分 析 算法 .关联 规则 算法 在 中 医 领 
域 必 有 较 多 应 用 ,深度 学 习 算法 则 更 接近 中 医 内 核 ,是 
未 来 发 展 的 大 方向 ,而 机 器 学 习 算法 的 成 功 , 离 不 
开 天 量 高 质量 数据 的 支持 。 此 次 数据 集 构建 将 重点 放 
在 每 位 患者 自身 的 情况 记录 与 分 析 上 ,弥补 了 现 有 数 
据 集 只 专注 于 某 一 疾病 或 忽视 患者 体质 的 问题 ,为 中 
医 领域 的 数据 分 析 提供 了 重要 支撑 。 
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科学 的 数据 分 析 是 医疗 卫生 事业 发 展 的 主要 方 
向 ,然而 在 中 医 领域 却 存 在 数据 流失 与 精确 度 不 够 等 
问题 。 本 次 研究 通过 构建 基于 元 数据 的 中 医 诊疗 数据 
集 的 方式 ,详细 记录 中 医 四 诊 合 参 .辩证 分 析 的 过 程 ， 
形成 一 个 结构 化 的 数据 体系 ,打破 信息 孤岛 ,将 患者 、 
医师 以 及 研究 人 员 都 纳入 到 数据 记录 整理 的 环节 中 
来 ,促进 中 医 诊疗 知识 的 保存 传播 与 再 利用 ,再 通过 
数据 库 应 用 技术 对 数据 进行 分 析 与 更 深层 次 的 挖掘 ， 
达到 知识 共享 与 传承 的 目的 。 但 本 次 研究 仍 存 在 不 足 
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之 处 :中 应 用 自然 语言 处 理 技术 来 增强 对 医 案 古 籍 以 
及 现代 名 家 医 案 的 批量 处 理 能 力 ;@) 面 对 复杂 病例 的 
记载 ,应 更 好 地 体现 时 间 维 度 ,在 详细 记录 患者 多 年 病 
情 的 同时 尽量 减少 信息 宛 余 。 在 未 来 的 研究 中 ,将 以 
本 文 所 构建 数据 集 为 基础 ,在 不 断 的 实证 中 积累 经 验 、 
优化 采集 方案 、 完 善 数据 管理 系统 ,为 中 医 诊疗 知识 组 
织 工作 提供 更 全 面 的 辅助 支撑 。 
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Abstract: | Purpose/significance | TCM medical case is an important carrier to record the diagnosis and treat- 


ment data. It is of great significance for TCM diagnosis and treatment knowledge sharing, analysis and inheritance to 


collect medical case data based on metadata and form a data set. | Method/ process | We selected and determined of 


TCM medical case metadata, and referred to the relational database for the conceptual and logical design of the data 


set, collected, organized and stored TCM medical case data based on case description to form the method of data set. 


| Result/ conclusion | Network and field diagnosis and treatment data collection were conducted based on relatively 


complete TCM medical case metadata. The formed TCM diagnosis and treatment data set can not only support multi- 


dimensional diagnosis and treatment information retrieval, but also provide data sources for further diagnosis and 


treatment data analysis and mining. 


Keywords: medical record TCM medical record metadata TCM diagnosis and treatment dataset 
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